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xj Akab, Ti 
(新 疆 财经 大 学 a. 统 计 与 数据 科学 学 院 ; b. 新 疆 社会 经 济 统计 与 大 数据 应 用 研究 中 心 ， 乌 鲁 木 齐 830012) 


摘 要 : 针对 重合 社区 发 现 准确 率 提 升 问 题 ， 提 出 了 一 种 基于 圈 结 构 的 LPANNI 优化 算法 CLPANNI(Cycle Label 

Propagation Algorithm with Neighbor Node Influence)。 该 算法 通过 挖掘 节点 的 最 小 圈 信 息 ， 依 据 圈 比 指标 衡量 节点 的 

重要 性 并 按 升序 进行 标签 更 新 ， 增 加 了 标签 传播 过 程 的 稳定 性 ， 按 照 邻 居 节 点 影响 力 大 小 加 权 接 收 邻居 节点 传递 的 
签 。 与 4 种 基准 算法 在 NMI LFK, NMI MGH, MOV 指标 下 进行 测试 比较 ，CLPANNI 算法 在 社区 发 现 准确 率 方 

面 表现 较 好 。 实 验 结果 表明 该 算法 能 够 有 效 探测 网 络 重 登 社团 结构 ， 发 现 网 络 的 紧密 子 团 ， 识 别 的 社团 分 布 与 真实 

网 络 结构 更 为 接近 。 
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LPANNI optimization algorithm based on cycle structure 


Liu Jiab, Jia Fangdi? 
(a. School of Statistics & Data Science, b. Xinjiang Social & Economic Statistics & Big Data Application Research Center, 
Xinjiang University of Finance & economics, Urumqi 830012, China) 


Abstract: In order to improve the accuracy of overlapping community detection, this paper proposed a LPANNI optimization 
algorithm CLPANNI (Cycle Label Propagation Algorithm with Neighbor Node influence) based on cycle structure by mining 
the minimum circle information of nodes, measuring the importance of nodes according to the circle ratio index and updating 
labels in ascending order, the algorithm increases the stability of label propagation process, and receives the labels transmitted 
by neighbor nodes according to the influence of neighbor nodes. With four benchmark algorithms in NMI LFK, NMI . 
Through the test and comparison under MGH and Mov indicators, CLPANNI algorithm performs well in the accuracy of 
community discovery. Experimental results show that the algorithm can effectively detect the overlapping community 
structure of the network, find the close sub clusters of the network, and the identified community distribution is closer to the 
real network structure. 
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0 引言 社区 发 现 的 标签 传播 算法 ， 该 算法 依据 节点 在 不 同 社团 隶属 

系数 的 变化 识别 社团 。 随 后 学 者 们 分 别提 出 SLPA(Speaker- 

复杂 网 络 是 人 们 用 来 理解 现实 世界 复杂 系统 的 一 种 抽象 Listener Label Propagation Algorithm)!!?!, DEMON(Democratic 
模型 。 它 将 复杂 系统 中 的 实体 抽象 成 节点 ， 将 实体 之 间 的 关 Estimate of the Modular Organization of a Network)!!! , 

系 抽象 成 连 线 。 社团 结构 (Community Structure) jt & Zi W £& H ACSLPA(Active Semi-supervised SLPA)!2125 51 33: L5] fr E 

最 普遍 也 是 最 重要 的 拓扑 特性 之 一 ， 表 现 为 社区 内 部 结构 紧 Wl, Vinicius da Fonseca Vieira 等 人 (3 对 5 种 表现 较 好 的 经 

密 ， 社 区 之 间 连 接 稀 松 。 社 区 发 现 (community detection) 对 探 算法 CPM(Clique Percorlation Method)!!! , COPRA! , 


L 


索 复 杂 系 统 的 运行 机 制 及 其 功能 特性 具有 重要 意义 ， 从 是 否 DEMONHUN, SLPAU?!, BigCLAM(CLuster Affiliation Model for 
考虑 节点 的 多 社区 归属 性 这 一 角度 ， 可 以 将 其 分 为 两 类 ， 非 ” Big networks)04 进 行 了 结构 识别 效果 对 比 ， 发 现 算法 识别 的 
重合 社区 发 现 算法 (Non-overlapping community detection) fü  ” 社团 只 是 算法 运行 的 结果 ， 并 不 代表 真实 的 社团 ， 他 们 指出 
EALA (Overlapping community detection). 真实 网 —— 仅 依 据 常 见 指 标 评 价 算法 的 优 务 存在 问题 ， 建 议 在 设计 重 半 
络 中 社区 结构 之 间 普 遍 具有 重合 区 域 ， 往 往 存 在 重 革 节点 ， 社区 发 现 算法 时 更 多 关注 重 辣 区 域 的 节点 数量 和 节点 的 隶属 
即 一 个 节点 同时 存在 于 两 个 以 上 社团 的 现象 帆 。 而 重 关节 点 。 上 度 等 信息 。 
对 网 络 结构 的 演变 起 到 十 分 重要 的 促进 作用 ， 在 万 物 互 联 的 值得 注意 的 是 ， 以 往 大 部 分 研究 主要 基于 节点 的 邻接 关 
大 数据 时 代 ， 重 有 节点 在 网 络 动力 学 演化 中 的 作用 值得 深入 系 研 究 网 络 的 功能 与 特性 ， 但 在 实际 交互 场景 中 往往 存在 多 
分 析 。 个 节点 的 复杂 相互 作用 。 不 论 是 在 自然 界 还 是 在 虚拟 的 网 络 
自 2005 年 以 来 ， 学 者 们 试图 从 不 同 角度 己 9 设 计 重 县 社 。 社交 圈 中 ， 单 个 个 体 的 行为 往往 和 群体 有 一 定 关 联 ， 为 了 更 
区 发 现 探 测算 法 提高 重 双 社团 的 识别 率 和 计算 效率 。 其 中 ， 好 地 协同 整体 ， 个 体 不 仅 需 要 考虑 个 体 间 的 相互 作用 关系 ， 


标签 传播 算法 四 以 线性 时 间 复 杂 度 优势 被 各 国学 者 广泛 应 用 ”还 需要 注意 与 群体 的 相互 作用 关系 。 考 虑 到 反馈 机 制 对 现实 
到 真实 网 络 重 受 社区 结构 探测 研究 中 加 ，COPRA(Community 网 络 动 态 演变 的 影响 ， 尤 其 是 重要 的 重 革 节点 在 不 同 社团 的 
Overlap PRopagation Algorithm) 中 算法 是 第 一 个 应 用 于 重 妊 正 负 反馈 作用 ， 本 文 需要 新 的 视角 来 分 析 节 点 的 影响 力 。 
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1 ”相关 知识 介绍 


11 重 又 社区 
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网 络 动力 学 与 网 络 结构 相互 关系 的 探索 十 分 重要 。 
社团 检测 算法 研究 是 研究 网 络 动力 学 有 效 的 方法 。 本 文 关注 
的 重 倒 社团 探测 算法 主要 基于 团 涂 流 思 


发 现 


刘 


继 ， 等 : 基于 图 结构 的 LPANNI 优化 算法 


响 网 络 拓扑 结构 演变 的 关键 要 素 之 一 ， 对 


p 


CIE 


类 ， 节 点 依据 一 定 的 传播 规则 自 


大 
算法 不 同 于 模块 度 z 
结构 的 质量 不 做 特别 限制 ， 因 此 更 符合 真实 世界 中 自动 生成 
的 组 织 或 者 团 禾 。 当 前 ， 网 络 科学 到 入 新 的 从 


i 化 等 其 他 自 


JA IR] 


Ti sg 


的 算法 ， 


相互 作用 动力 学 将 引起 人 们 的 极 大 兴趣 ， 重 爱 


了 挑战 ， 


1.2 相关 工作 


XCÉA [15,16] 18 2& DE Jn 3 
开创 了 网 络 科 学 丰 


全 齐 性 子 网 络 ， 


想 和 标签 
上 逐步 集聚 成 团 ， 此 类 


传播 思想 两 


对 网 络 社 


p" 


W E 
阶段 ， 高 


社 


在 探测 社团 结构 时 需要 考虑 多 节点 间 的 交互 特征 
网 络 中 观 尺度 的 邻 域 信息 。 


团 探测 迎 来 
与 


于 圈 结 构建 立 了 个 体 与 群 


个 节点 的 相互 作 月 
步 指导 网 络 社区 发 现 。 文 


ERU" mr" HM, 1 


目 ， 可 以 反映 节点 的 局 


Een 


完 的 新 框 染 : 


体 的 联系 ， 在 一 定 程度 上 考虑 了 
域 影响 力 ， 能 够 进 
献 [17] 基 于 网 络 的 一 阶 圈 结构 设计 


了 新 的 节点 重要 性 指标 : 
点 分 布 较为 分 散 ， 这 些 重 要 节点 
力 强 。 文 献 [18] 提 出 了 LPANNI F 


圈 比 ， 


2 


E 


mu 


网 络 分 解 为 
圈 结构 。 由 
多 


其 于 圈 比 指标 找到 的 重要 节 
专 播 高 效 ， 不 元 
县 社区 发 现 算法 ， 该 算法 融 


E1- 6k 
R, 同 ; He 


A T COPRA fll DLPA(Dominant Label Propagation Algorithm)!!! 
算法 的 优点 ， 巧 妙 的 解决 了 COPRA 算法 在 不 同 网 络 中 参数 难 


以 确定 的 问题 ， 同 时 充分 考虑 节点 的 局 域 信息 ， 通 过 综合 节点 
重要 性 、 邻 域 节点 相似 性 以 及 邻居 节点 影响 力 的 方式 降低 了 
标签 传播 算法 的 随机 性 ， 引 进 历史 标签 偏好 策略 ， 确 定 节点 
每 次 迭代 的 主 标签 ， 增 加 了 重 半 社区 识别 精度 。 
1.3 评价 指标 

在 不 知 网 络 重合 社团 结构 时 ， 一 般 用 质量 函数 衡量 社团 


的 紧密 度 ， 


常见 的 有 EQPOI, Qot, Me。 本 文选 用 M” 指 


标 ， 该 指标 依据 每 一 个 节点 在 不 同 社团 的 归属 强 
的 贡献 程度 ， 是 一 种 非常 精确 的 重 共度 衡 量 


算 该 节点 对 社团 上 
办 法 , 这 与 文献 [13] 的 建议 十 分 吻合 。 根 据 节 点 在 社 
与 社团 外 连 边 数目 的 差 值 衡量 节点 对 一 社 


" 
EA f Jf et K RIRIK E ERA] T E RUE E 


低 分 辩 问 题 。 


度 来 进行 计 


内 连 边 


F 
的 贡献 度 ， 有 效 
Hi 


结构 的 


体 公 式 如 下 : 
K 
Ya =1 wu e[0.1] 
r=l 
1 P B u 2 d nt 
jec, iżj jec, c, a 
M 2 T7 era yM” S11 
2 


其 中 : 


nan n, FARRS r At 


团 c 的 节点 数 和 连 边 数 ，1 


(1) 


于 第 一 个 因子 的 取 值 范围 在 -1 和 1 之 间 ， 第 二 个 因子 的 取 值 


范围 在 0 到 1 之 间 ， 因 此 M” RH 


果 的 衡量 ， 


在 已 知 真实 社团 结构 时 ， 


本 文选 用 


常 


Library)P3 中 的 两 种 NMI 指标 。 


2 LPANNI 算法 框架 


以 固定 顺序 更 新 节点 的 标签 ， 
氏 了 随机 性 ， 其 次 ， 合 理 


LPANNI 算法 首先 
决 了 标签 震荡 问题 ， 降 


Ny 


局 部 信息 测度 


了 不 同 邻 居 节 点 的 影响 力 大 小 ; 再 


区 值 在 -1 和 1 之 间 变 化 。 
] NMI 指标 进行 社团 划分 结 
CDlib 库 (Community Discovery 


有 效 解 


运用 节点 的 
次 ， 在 标签 


传播 过 程 中 只 传播 社区 归属 系数 最 大 的 主 标 签 ， 
相同 的 最 大 的 主 标签 则 选择 历史 迭代 中 出 现 的 主 标签 ， 过 滤 


若 具 有 多 个 


了 不 重要 的 标签 信息 ， 在 算法 收敛 后 ， 根 据 节 点 的 标签 集 信 
息 确 定 重合 节点 。 


ChinaXiv 合 作 期 刊 


第 39 卷 第 9 期 


2.1 符号 说 明 
本 文 涉及 到 的 关键 符号 及 其 含义 如 表 1 所 示 。 
表 1 符号 说 明 
Tab.1 Symbol description 
符号 含义 符号 X 
CR 圈 比 Ld 节点 1 的 主 标签 
Sim 相似 度 p 路 径 长 度 
NNI ”邻居 节点 影响 力 a MAKERE 
hl 历史 标签 偏好 T Tg KI CER 
VQ 更 新 顺序 Ng(i) 节点 i 的 邻居 
LNg ”节点 的 主 标签 集 I 标签 集 大 小 
On ERE EUR Om 重合 节点 社团 数 
、 节点 1 在 社团 C 中 的 邻居 节点 v 的 主 标签 及 
b(c,i) I(Cv,bv) 
隶属 系数 对 应 社团 的 隶属 系数 
上 述 符号 主要 基于 本 文 提 出 的 CLPANNI 算法 ， 部 分 符 


号 为 后 续 实验 中 出 现 的 参数 。 
22 参数 初始 化 

最 大 迭代 次 数 了 ; 节点 数量 V; AREZ t 用 一 组 有 及 
数 对 表示 节点 i 在 不 同 社区 中 的 隶属 强度 : bele, Ds 节点 i 的 
邻居 节点 NGG); 节点 i 标签 集 的 隶属 系数 最 大 的 标签 为 主 标 
签 Di， 节 点 i 的 标签 集 大 小 |L|; 节点 i 的 标签 集合 Lio 

初始 时 刻 ， 网 络 G(V,E) 中 的 节点 各 自 为 一 个 独立 社区 
节点 的 隶属 系数 为 1， 即 社区 i 的 隶属 系数 bi 7g 1, WER 
bi(i，1)。 
2.8 更 新 策略 

输入 : G=(V,E,w), 最 大 迭代 次 数 T。 

输出 :社区 识别 结果 。 

阶段 1: 固定 标签 更 新 顺序 
for i in V: 

依据 节点 重要 性 公式 计算 节点 的 重要 性 

依据 节点 相似 性 公式 衡量 节点 间 的 相似 性 

依据 邻居 节点 影响 力 公 式 计 算 邻 居 节 点 的 重要 性 
end for 
按 节点 重要 性 的 大 小 或 者 序列 号 的 大 小 升序 排列 为 VQ 
阶段 2: 标签 传播 过 程 
t-e 


wl 


co N oO UU A Uu N H 


9 for i in V: 
10 l[i] = {i,1}; 


11 主 标签 Di = i; 

12 end for 

13 while t « T: 

14 for i in VQ: 

15 LNg = (1(c1,b1),1(c2,b), ..., 1(cv by) ];veNg(i); 
16 L' = 按照 更 新 规则 更 新 节点 i 的 标签 集 
17 for ls in L': 

18 if b' < 1/|L'|: 

19 then delete 1s from L'; 
20 end if 

21 end for 

22 Li= 归 一 化 的 节点 标签 L' 

23 确定 节点 工本 次 迭代 后 的 主 标签 Di; 

24 end for 

25 — 若 所 有 节点 的 标签 集 大 小 以 及 主 标签 不 再 变化 
26 WIES YER S 

27 end if 


28 t = t4; 
29 end while 
30 Output Li of each node i,(i€V) 
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LPANNI 算法 包含 2 个 阶段 的 处 理 ， 即 固定 标签 更 新 顺 “突出 表现 ， 本 文 将 圈 比 运用 到 标签 传播 算法 中 来 ， 先 借助 圈 
序 和 标签 传播 过 程 。 阶 段 1 主要 按照 邻居 节点 的 影响 力 大 小 比 找 到 网 络 中 传播 能 力 强 的 节点 ， 并 运用 LPANNIWMsI 算 法 的 
更 新 标签 信息 ， 阶 段 2 中 在 确定 主 标签 时 ， 如 果 只 有 一 个 最 ”标签 传播 策略 来 提高 网 络 社团 的 划分 精 
大 的 隶属 度 ， 则 传播 该 社区 标签 ， 如 果 存 在 多 个 相同 的 最 大 31 相关 定义 


Ki 


隶属 度 社 区 标签 ， 则 优先 选择 上 次 迭代 中 的 主 标签 ， 否 则 随 简单 无 向 网 络 G(V, E), 其 中 V 入 分 别 表示 节点 集 和 
机 选择 一 个 作为 主 标签 。 连 边 集 ，n 表示 节点 的 数量 ，m 表示 连 边 的 数量 。 

LPANNI 算法 考虑 了 节点 的 局 域 信息 ， 通 过 计算 邻居 节 Æ(Cycle): 二 维 平面 上 具有 相同 起 点 和 终点 的 闭合 路 径 ， 
点 的 影响 力 巧 妙 设 计 了 标签 更 新 规则 ， 在 传播 规则 上 具有 很 圈 的 大 小 等 于 它 的 连 线 数目 , 最 小 圈 是 指 含 该 节点 的 最 小 环 路 。 
大 的 借鉴 意义 。 但 只 关注 节点 对 的 相互 作用 ， 主 要 借助 节点 周 长 (Girth):; 从 该 点 出 发 再 返回 它 的 最 短 环 路 所 含 的 连 
的 度 信息 设计 相关 公式 ,对 具有 相同 结构 的 节点 区 分 度 不 大 ， 线 数目 ， 即 经 过 该 节点 的 最 小 圈 长 。 
需要 借助 节点 ID 顺序 较 多 ， 本 文 基于 以 上 优点 和 不 足 对 其 圈 数 (Cycle number): 含有 该 节点 的 最 小 圈 的 数量 。 
进行 改进 。 圈 比 (Cycle Ratio: CR): 节点 重要 性 衡量 指标 , 圈 数 矩阵 

中 第 i 个 节点 所 在 行 的 元 素 比 上 对 应 行 的 对 角 元 素 之 和 ， 得 


3  CLPANNI 算法 设计 
事物 有 从 简单 到 复杂 的 一 个 发 展 过 程 ， 错 综 复 杂 的 交互 
关系 使 得 组 织 得 以 延续 壮大 ， 组 织 间 的 交互 带 来 了 联通 与 演 
化 。 以 网 络 科学 视角 可 以 看 到 一 些 特定 的 网 络 结构 ， 例 如 星 Ci 是 S PIA i jx RITE. gri M ci 是 S 
结构 ， 链 结构 ， 以 及 圈 结 构 。 圈 结构 是 构成 网 络 的 基本 结构 。 中 包含 节点 i 的 圈 数 ，CR; 为 i 节点 的 圈 比 值 ,为 了 能 够 精确 
之 一 ， 是 形成 网 络 功能 的 最 重要 机 制 之 一 : 反馈 效应 的 结构 。” 衡量 邻居 节点 影响 力 的 大 小 , 故 这 里 将 第 一 种 情况 取 为 0.1。 
基础 ， 而 反馈 对 事物 的 发 展演 化 十 分 关键 。 节点 相似 性 (Similarity: Sim): 本 文 衡量 节点 相似 性 主 
在 网 络 动力 学 同步 的 研究 中 ， 史 定 华 等 人 发 现 最 容易 同 。 要 基于 网 络 结构 ， 文 献 [25] 对 局 部 相似 性 指标 的 相关 研究 
步 的 网 络 是 度数 相同 、 路 和 相同 并 且 最 小 、 周 长 相同 并 且 最 ”进行 了 梳理 ， 并 分 析 了 这 些 指标 的 设计 原理 。 指 出 结构 相 
大 的 几乎 全 齐 性 网 络 0544。 圈 在 结构 上 给 网 络 连通 带 来 了 元 似 性 指标 可 以 分 为 基于 局 部 信息 、 路 径 及 随机 游 走 三 类 ， 
余 路 径 ， 在 功能 上 表征 了 反馈 机 制 ， 在 网 络 动力 学 中 产生 了 ”文献 [18] 提 出 的 相似 性 指标 结合 了 节点 的 局 部 信息 以 及 路 
强化 效应 ， 很 容易 增强 社会 协同 效应 ， 因 此 圈 结 构 在 保持 网 AKE, 有 效 融 合 了 二 者 优势 , 故 本 文 沿用 该 相似 性 指标 ， 


到 i 节点 的 圈 比 ， 具 体 计算 公式 为 
Ge o 


cr>0 


络 连 通 性 和 维护 网 络 的 动态 交互 方面 比较 重要 。 在 此 基础 上 ， ”具体 计算 公式 为 

范 天 龙 等 人 认为 参与 许多 圈 的 节点 很 重要 ， 这 些 节点 对 网 络 xum: say) à 
的 连通 、 同 步 以 及 控制 方面 有 极 大 的 影响 ， 他 们 基于 网 络 最 SEn EE y O) 

小 图 设计 了 基于 圈 结 构 的 节点 重要 性 指标 ， MEN MR y ap ue CAVO, 

看 : 图 1 的 子 图 b 中 计算 了 子 图 a 中 节点 1 的 圈 比 , 子 图 。 一 ”和 Pi 

是 所 有 节点 的 度 、H 指数 、 核 数 、 圈 比值 、 中 介 中 心性 等 信 上 式 中 ，p 表示 直接 或 间接 连接 节点 i 和 节点 j 的 路 径 。 


息 。 他 们 对 网 络 的 一 阶 圈 结构 的 最 小 圈定 义 了 一 个 新 的 和 矩阵， ”lp| 表 示 p 的 长 度 ， 它 在 1 到 a 之 间 变 化 。|AIP| 表 示 p 的 测度 
称 为 圈 数 矩阵 。 圈 数 和 矩阵 的 阶 数 与 网 络 中 的 节点 数 相同 ， 和 矩 EE KERE a 来 控制 计算 复杂 度 ， 用 来 区 分 两 个 节 


阵 的 第 i 行 ( 列 ) 描 述 了 节点 i 与 其 他 节点 的 共 圈 情况 , ERER 点 因 度 值 差异 对 节点 相似 度 带 来 的 影响 。 
元 素 表示 网 络 中 任意 两 个 节点 之 间 的 共 圈 数量 。 这 样 ， 节 点 KEKERE a 来 控制 计算 复杂 度 ， 用 来 区 分 两 个 节点 
i 的 圈 比 值 就 可 以 根据 圈 数 矩阵 中 第 i 行 非 零 元 素 与 对 角 线 于 度 值 差 异 对 节点 相似 度 带 来 的 影响 。 令 居 节 点 影响 力 
元 素 的 比值 之 和 计算 出 来 。 (Neighbor Node Influence: NNI): 考虑 到 邻居 节点 由 于 具有 不 
" s -" 司 的 局 部 结构 ， 对 节点 的 影响 力也 不 尽 相 同 ， 在 标签 传递 时 
E 需要 测度 不 同 邻居 节点 的 差异 。 文 献 [18] 提 出 的 NNI 综合 考 
Aa 虑 邻居 节点 的 重要 性 大 小 和 邻居 节点 与 该 节点 的 相似 性 程度 ， 
00 相对 来 说 比较 客观 ， 本 文 沿用 。 具 体 公式 为 
NNI, CD = ME m (4) 
"P ERA " 3.2 LPANNI 算法 的 改进 
c i g LPANNI 算法 仅仅 通过 节点 的 度 和 三 角形 信息 设计 节点 
Each node's associated cycles in S and the four indices under consideration. 重 要 性 公式 来 衡量 节点 的 重 要 性 以 及 邻居 节点 的 影响 力 大 小 
Nodelabel Associated cyclesinS ^ Degree H-index Coreness ĈYele Betweenness Ed 没有 5 E 更 多 的 圈 结 构 ， 因 此 看 到 的 信 息 是 十 分 有 限 的 ， 不 
Www 足以 衡量 具有 相同 局 部 结构 节点 的 差异 。 而 圈 比 指标 通过 稀 
bt AE HE. ] 量 节点 参与 邻居 节点 圈 的 程度 识别 重要 节点 ， 有 利于 标签 的 
r T : AES n 1 动力 学 传播 ， 本 文 基于 圈 结 构 信息 对 无 向 无 权 网 络 提 出 重 炙 
7 (538 2 2 134 ao 0 社区 发 现 算法 CLPANNI, 根据 圈 比 的 升序 固定 节点 的 标签 更 
JE ; 1 2 新 顺序 ， 提 高 社团 识别 的 精度 。 
fi l i 9 8.8 CLPANNI 算法 框架 
图 1 圈 比 计算 (图 片 修改 自 文献 [17]) CLPANNI 算法 主要 分 为 2 个 阶段 ， 第 一 个 阶段 完成 节点 圈 比 
Fig. 1 Calculation of cycle ratio (picture from literature[17]) 和 和 邻居 节点 影响 力 的 计算 , 第 二 个 阶段 进行 标签 传播 , 找到 全 部 节 
圈 提 供 的 元 余 连 通 和 反馈 机 制 ， 使 得 圈 上 节点 无 论 在 同 点 的 隶属 社团 ， 输 出 节点 的 标签 集 。 具 体 步 又 如 图 2 所 示 。 左 边 


步 还 是 传播 中 249， 都 有 更 高 的 概率 被 接触 和 同步 ， 能 更 好 模 ”一 部 分 为 CLPANNI 算法 的 第 1 阶段 ， 右 边 一 部 分 为 
拟 社会 增强 效应 。 考 虑 到 圈 比 指标 在 挖掘 高 传播 节点 方面 的 CLPANNI 算法 的 第 2 阶段 。 
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计算 节点 
影响 力 


v 
按 节点 重要 性 升序 排列 为 VQ 


按 规 则 更 新 标签 并 归 一 化 标签 隶属 系数 5 


输出 节点 标签 集合 ， 相同 标签 
的 节点 归 为 同一 社区 


结束 
图 2 算法 步骤 
Fig.2 Algorithm steps 


标签 传播 规则 
文献 [9] 提 
强度 ， 节 点 在 不 同 社团 的 隶属 强度 类 似 于 


出 的 COPRA 算法 考虑 节点 在 不 同 社团 的 隶属 
个 个 体 在 不 同 层 


H 中 注 


意 力 或 者 精力 的 分 散 程度 ， 总 和 加 起 来 为 1。 


文献 [18] 
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部 分 算法 082621 考 虑 网 络 的 三 角形 信息 。 对 LER. 数据 进行 圈 
结构 分 布 的 可 视 化 有 助 于 理解 进一步 了 解 网 络 中 的 圈 结 构 信 
息 。 在 运用 CLPANNI 算法 检测 网 络 的 社团 结构 的 同时 ， 可 
以 清楚 的 看 到 网 络 的 最 小 圈 分 布 情况 ， 如 图 3 所 示 。 
表 2 合成 网 络 的 具体 参数 
Tab.2 Specific parameters of synthetic network 
数据 集 节点 数量 社团 规模 u On Om 
LFRI 1000 10-80 0.1 30 1-8 
LFR2 3000 10-80 0.1 90 1-8 
LFR3 5000 10-80 0.1 150 1-8 
LFR4 1000 10-80 0.3 30 1~8 
LFR5 3000 10-80 0.3 90 1~8 
LFR6 5000 10-80 0.3 150 1-8 
E b 


M 


以 节点 重要 性 的 升序 固定 标签 传播 序列 增加 了 算法 的 稳定 性 ， 


通过 邻 


的 LPANNI 算法 解决 了 COPRA 算法 需要 提前 设置 
拥有 v 个 标签 的 缺陷 ， 这 里 本 文 以 节点 的 圈 视 角 衡量 节点 的 


居 节 点 影响 的 标签 更 新 策略 和 历史 标签 偏好 策略 提出 
和 点 最 多 


重要 性 程度 ， 
阶段 1 根据 节点 的 圈 比 值 ， 从 小 到 大 对 节点 排序 ， 


体 标签 传播 规则 为 


若 节 点 


序 接收 


的 圈 比 值 相 同 , 则 以 TD 大 小 升序 排列 , 得 到 固定 的 更 新 序列 VQ。 
阶段 2: 
个 节点 都 完全 属于 自己 ， 即 有 


依据 VQ 的 顺序 进行 标签 更 新 。 初 始 时 刻 ， 每 


Ldi-(,1). BE FRUIZ VQ 顺 


邻居 节点 的 主 标签 后 形成 LNg 标签 集 , 主 标签 是 指 邻 


居 节 点 指 传递 最 大 的 隶属 系数 及 社团 标签 。 


LNg={(c,b),l(c,b,),...l(c,,bv)},v e Ng) 
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并 按照 邻居 节 | NNI 对 隶属 系数 进行 加 
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图 3 合成 网 络 的 最 小 圈 分 布 
Fig.3 Minimum cycle distribution of the synthetic network 
由 图 可 知 , 本 实验 的 6 个 LFR 网 络 中 含 较 多 的 圈 
据 ， 不 同 规模 的 数据 具有 不 同 的 圈 结 构 分 布 ， 最 小 圈 的 
为 3， 最 大 圈 的 周 长 为 8， 


日 最 小 圈 中 三 角形 数量 占 比 过 半 。 


结构 数 


周 长 


权 处 理 ， 得 到 大 小 为 邻居 节点 数 的 新 标签 集 已 ， 此 时 每 个 节 ”在 混合 参数 4 为 0.1 时 ， 三 角形 在 网 络 最 小 圈 数 量 占 比 至 少 
点 的 总 隶属 系数 为 1 。 20 2s RAŽ 达到 的 90%; 当 混 合 参 数 4 为 0.3 时 ， 随 网 络 结构 清晰 度 的 
b'(c,i) » LEP Y pcD=l (6) 下 降 ， 最 小 图 数量 明显 减少 角形 的 占 比 有 所 下 降 ， 四 边 
nac P COD nas 形 与 五 边 形 的 占 比 明显 上 升 ， 这 在 一 定 程 度 上 印证 了 当 网 络 
加 权 处 理 后 的 标签 集 结构 不 明显 时 社团 识别 效果 不 好 的 原因 。 当 网 络 规模 不 变 时 ， 
L' 24l(e, bs bises), Y, bei)=1 (7) 随 网 络 拓扑 结构 复杂 程度 上 升 最 小 圈 的 种 类 和 分 布 多 样 化 特 
"oes 征 更 为 突出 ， 这 就 加 大 了 社团 识别 的 难度 。 
自 适 应 柚 除 无 用 标签 2(ci)<WL|， 归 一 化 后 得 到 此 次 迫 3) 真 实数 据 集 
代 的 标签 集 L”。 如 此 迭代 工 次 后 输出 各 节点 的 标签 集 。 文献 [12] 提 供 了 已 知 社团 信息 的 3 个 真实 数据 ， 分 别 是 
bc, = Datesoeneoseneins eb v) * NNI, G) (8) ”处 理 过 的 共同 购买 网 络 Amazon, 科学 家 合作 网 络 DBLP, Ai 
23 us merinowevs bc V) * NNI, Ò) 网 络 YouTube， 并 列 出 了 网 络 的 重合 节点 信息 。 本 文 对 这 3 个 
识别 具有 最 大 隶属 系数 的 标签 为 节点 站 的 主 标签 ， 若 有 真实 网 络 数据 进行 了 最 小 圈 挖 掘 ， 发 现 Amazon 数据 与 DBLP 
多 个 主 标签 ， 则 选择 上 一 步 迭 代 的 主 标 签 ， 否 则 随机 选择 一 数据 中 的 最 小 圈 种 类 较 少 ， 但 YouTube 数据 中 的 圈 分 布 具 有 多 
个 作为 主 标 签 。 当 全 部 节点 的 标签 集 和 主 标签 稳定 时 ， 停 止 样 性 的 特征 ， 其 中 最 小 的 圈 周 长 为 3~10。 说 明 YouTube 网 络 结 
迭代 ， 输 出 节点 的 标签 集 。 构 特征 相对 比较 复杂 。 上 县 体 相关 信息 如 表 3 所 示 。 
4 实验 D : 
Tab.3 Specific information about the real network 
41 实验 数据 数据 集 Amazon DBLP YouTube 
1) 人 工 数据 集 节点 数 7411 7233 6426 
LFR 人 工 数据 集 能 够 合成 接近 真实 情况 的 使 得 节点 数 和 边 数 21214 33045 23226 
社团 数 均 满足 容 律 分 布 的 网 络 。 因此 本 文 使 用 LER. 基准 网 络 社团 数 876 613 1058 
生成 数据 ， 分 别 用 清晰 度 n E 0.1 或 0.3. 的 两 组 数据 进行 实 最 大 社团 规模 27 38 31 
验 对 照 。 每 一 组 数据 中 分 3 个 等 级 ， 节 点 数目 分 别 为 1000， 最 小 社团 规模 5 10 5 
3000，5000， -wei 了 5 HA Ie] 8 E ERE RES TATARKA BR 4 8 11 
其 具体 信息 如 表 2 所 示 。 最 小 圈 总 数 26171 108882 40517 
2) 合成 网 络 的 最 小 图 最 小 圈 分 布 {(3,26061),(4,110)} {(3,108880),(6,2)} {3,4,5,6,7,8,9,10} 
以 往 重 又 社团 发 现 算法 很 少 关 注 网 络 的 圈 结 构 分 布 情况 ， FATAH 1394(18%) 214(3.3%) 865(13%) 


由 于 YouTube 数据 中 


的 最 小 区 
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数量 较 大 且 种 类 较 多 ， 


便 枚 举 。 这 里 将 其 圈 分 布 
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继 ， 等 : 基于 图 结构 的 LPANNI 优化 算法 
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展开 分 析 ， 如 图 4 所 示 。 
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Fig.4 Minimum circle distribution of YouTube network 


AR 
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AS 


可 以 看 到 YouTube 网 络 中 ， 周 长 为 3 的 圈 : 
是 最 小 圈 的 主体 组 成 部 分 ， 数 量 级 别 最 高 。 其 次 为 周 长 为 4- 
8 的 圈 ， 在 该 网 络 中 最 长 的 圈 周 长 为 10。 


4.2 实验 结果 


以 SLPA, DEMON, CPM 和 LPANNI 为 对 比 算法 ， 经 


Y 过 多 次 实验 调 参 ， 相 关 算 法 的 参数 设置 如 表 4 所 示 。 

eo 表 4 ”基准 算法 的 具体 参数 

LO) Tab.4 Specific parameters of the benchmark algorithm 

© 数据 集 Amazon DBLP Youtube 

e CPM k-3 k-3 k-3 

e DEMON min com size-3,epsilon-0.25 

LO SLPA T=21,r=0.1 T-21,7-0.2 
C LPANNI T-20,a-3,b-0 

N CLPANNI T=20,a=3,b=0 

CM — 其 中 ,由 于 SLPA 算法 不 稳定 ， 经 过 10 次 重复 实验 取 平均 得 
AI 到 具体 值 ，CPM 算法 中 参数 Kk 一 般 取 3~6， 经 过 测试 发 现 将 
we k 取 为 3, 得 到 的 各 项 测试 结果 更 好 , 其 他 算法 中 的 参数 按照 
2 CDlib E 1231H SJ UE HEIT MR o 

SS 先 对 LFR 数据 进行 测试 ，NMI LEFKDP8I 是 学 者 常用 的 测 
© ys, ZEE A TESTED SUBE. fH 
C. — 有 时 候 会 高 估 两 个 社团 的 相似 性 -NML MGHUP?I( H9 f NM) 
于 是 AaronF.McDaid 等 人 对 NMLLFK 作出 的 优化 指标 , 本 文 
《3 ”选用 该 指标 进行 测试 。 
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下 降 
数量 


的 情况 下 
0 时 ， 
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E ESERDEXeUuWERE. E W 
， 还 能 准 
CLPANNI 算法 的 表 


确 


明 本 文 


步 验 订 


的 改进 有 效 ， 圈 比 在 挖掘 节 
F CLPANNI 算法 


构 已 知 
在 真实 数 ] 


现 较 好 。 
男 一 方面 


zm 


的 真实 数据 进行 测试 ， 如 
的 实验 结果 中 ， 可 


据 上 表现 相对 较 好 ， 说 明 该 算法 在 社 


识别 网 络 的 入 


£5 LPANNI 算法 相对 其 
络 规模 增 大 ， 网 络 社团 结构 清 且 
EHA. KERHA 
MEg F LPANNI 算法 , 说 


AERJ E 
的 准确 度 ， 对 3 个 社 
6 所 示 。 


以 看 到 在 3 种 指标 的 检 沉 
F, KI YouTube 数据 ，CLPANNI 算法 较 LPANNI HEM 
试 结果 表现 稍 低 外 ， 在 其 他 数据 的 表 
在 Me" 指标 下 , CLPANNI 算法 表现 较 
在 Amazon 数据 集中 优势 更 为 明显 。 


IEE LPANNI 算法 好 。 
LPANNI 算法 好 ,尤其 
SLPA 算法 在 DBLP 数 


| 表现 更 好 。 


团结 


E&E 三 


F 


， 也 说 明 本 文 的 参数 设置 合 到 


B, d 


极 大 的 不 稳定 性 和 随机 性 ， 需 要 多 次 重复 实验 ， 


次 都 能 得 到 较 好 的 划分 ， 故 并 不 能 提供 一 个 可 靠 的 结果 ; 
H, NMI MGH 得 分 较 低 ， 说 明 民 
有 于 此 类 网 络 ;， 总 体 来 说 ， 
良好 ,在 多 项 指标 的 测试 下 都 有 


DEMON 算法 在 YouTube H 
主 投票 机 制 的 标签 传播 策略 不 适 月 
CLPANNI 算法 表现 


现 。 


日 该 算法 存在 


结构 明显 的 网 络 上 表 


不 能 保证 每 


5 


6 WEZH 


讨论 
算法 探测 结果 


ri 


F 


DBLP 网 络 


算法 
数据 


据 是 


对 YouTube 数据 的 社 


图 5 的 实验 结果 


FH 


的 探测 结果 进 
社交 网 络 数 : 


效应 


。( 注 : 由 于 


位 数 


的 实验 结果 。) 


LFR 


步 


B. Mus 
SLPA 算法 具 
平均 来 说 ， 能 够 识别 到 社团 477 个 ， 这 


与 Amazon 网 络 表现 较 


可 知 ， 网 络 社 
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团结 构 越 模糊 ， 社 团 间 
度 越 大 , CLPANNI 算法 相 较 其 他 算法 表现 越 好 ; MAE 
结构 评价 指标 来 看 , 本 文 所 提 算 法 CLPANNI 在 
原 算 法 更 优 ， 另外， 多 个 
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pa 


F 


探测 效果 欠 佳 ， 


大 


此 有 必要 对 该 


分 析 , 探寻 其 背后 
网 络 上 存在 一 定 


的 


小 


的 入 


E], YouTube Zi 
会 网 络 增强 


随机 性 ， 


重复 实验 15 次 。 


有 展示 社 


7 


数量 为 中 


4 
Om 
LFR4 


NMILMGH 指 标 


NMI Wolf 


i 


865 个 ， 社 


表 5$ 


HUE 


结构 


不 错 的 表 


SEX 


区 


合成 数据 LFR--NMI_MGH 指 标 
5 合成 网 络 实验 结果 


Fig.5 Experimental results of synthetic network 
真实 数据 测试 结果 


Amazon 


C Amazon 


DBLP You 


DBLP You 


Amazon 


DBLP 


DATA 


图 


6 真实 网 络 实验 结果 


ouTube 


Fig.6 Real network experiment results 


分 别 


度 、 主 体 社 
总 节点 频次 信息 。 在 本 次 实验 
个 。CPM 算法 能 够 识别 
是 以 三 角形 为 单元 
可 以 看 到 DEMON 算法 


lm. 


zi 


展示 了 各 个 算法 在 YouTube fl 


规模 为 5， 


真实 情况 下 ，YouTube 网 络 6426 个 节点 中 有 重 双 节点 
团 1078 个 。 主 要 的 社 


共有 307 个 。 


F 


上: 交 网 络 上 探测 的 社 


zi 


规模 及 其 探测 数量 、 社 
H, SLPA 算法 能 发 现 社 
到 紧密 的 社团 结构 ，K=3， 识 别 到 的 


的 团 


F 


识别 数量 与 


1& 230 个 。 在 社团 结构 识别 上 ， 
发 现 的 社团 数量 最 少 同 时 M 得 分 最 


J| 455 


高 , BEER ARE E EAEXSETPAA M [L8 ; 相对 来 说 , CPM 
与 SLPA 算 识别 的 社团 数量 较为 相近 ， 能 够 探测 出 455 个 社 
BH]; LPANNI 算法 发 现 的 社团 数量 最 多 但 社团 较 小 ， 在 重 羞 
节点 发 现 方面 ，CLPANNI 算法 的 识别 效果 不 如 LPANNI 算 
ik, fH CLPANNI 算法 对 主体 社团 规模 的 识别 准确 度 较 高 ， 
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说 明 改 进 的 CLPANNI 算法 较 原始 算法 在 社团 规模 探测 方面 
拟 合 更 好 。YouTube 具有 多 样 化 的 最 小 圈 分 布 ， 说 明 本 文 算 
法 对 连 边 元 余 圈 结构 复杂 的 网 络 探测 探测 效果 更 优 ， 较 原始 
算法 能 更 好 模拟 社会 增强 效应 。 

表 5 算法 探测 结 


Tab.5 Algorithmic detection results 


方法 M™ 指标” 主体 社团 规模 及 大 小 ”社团 探测 数量 。 总 节点 频次 
RealData 0.1890 {5,307} 1058 7775 
CPM 0.3959 {3,230} 455 4570 
SLPA 0.5145 {5,120} 455 7623 
DEMON 0.677 (4,46) 200 13898 
LPANNI 0.3233 {2,167} 867 6675 
CLPANNI 0.3485 {5,129} 574 6543 图 8 YouTube AEAT ASIT 
52 ”社团 规模 分 布 Fig.8 Distribution of highly overlapping nodes in YouTube 
为 进一步 分 析 各 个 算法 在 该 网 络 社 团结 构 探 测 方面 的 表 经 过 对 比 YouTube 网 络 的 社团 输出 信息 ， 本 文 发 现 
现 ， 对 各 个 算法 探测 到 的 社团 数量 分 布 进行 对 比 。 CLPANNI 算法 对 真实 网 络 中 的 重合 节点 挖掘 、 社 团结 构 识 别 
LPANNI,CLPANNI,DEMON,SLPA 算法 都 含有 标签 传播 ”效率 方面 还 有 待 提升 ， 未 来 将 结合 圈 结 构 对 具有 紧密 结构 的 


算法 的 思想 ， 因 此 会 存在 标签 传播 算法 特定 的 缺点 ， 存 在 标 网 络 进行 深入 分 析 。 真 实 网 络 往往 会 随 外 界 环境 动态 演变 ， 

签 过 度 传播 和 大 团 吃 小 团 的 现象 , 去 除 奇 异 值得 到 图 7 的 社 。 而 拓扑 结构 又 影响 信息 的 传输 ， 如 何 利用 探测 到 的 重 对 节点 
d d s t. CPM 算法 主要 通过 完全 子 图 的 渗流 识别 社团 结 及 其 社团 结构 分 析 网 络 的 动态 演化 特性 ， 值 得 深入 研究 。 考 
构 ， 因 此 得 到 的 社团 大 小 与 网 络 局 域 结构 的 紧密 性 有 很 大 的 虑 到 网 络 的 连接 往往 是 在 信息 不 完全 条 件 下 作出 的 有 限 选 择 ， 
关 
但 


关联 。 在 真实 的 YouTube 数据 中 , 最 大 的 社团 含 31 个 节点 ， 未 来 在 研究 中 还 需要 融合 先 验 知识 ， 整 合 网 络 高 阶 信息 进 一 
E 5 种 算法 识别 到 的 最 大 社团 大 小 均 超 过 31, 说 明 该 网 络 存 ，” 步 量化 网 络 ， 合 理 嵌 套 节 点 属性 信息 挖掘 网 络 的 重 登 社团 结 
在 紧密 的 联通 块 。 以 上 实验 结果 为 CLPANNI 在 最 宽松 的 条 ” ” 构 ， 发 掘 关键 重合 节点 协助 预 判 网 络 的 动态 演化 方向 。 
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